{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import sqlite3\n",
    "import jieba"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "data = pd.read_csv(\"./data/database.csv\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "def check_contain_chinese(check_str):\n",
    "    for ch in check_str:\n",
    "        if u'\\u4e00' <= ch <= u'\\u9fff':\n",
    "            return True\n",
    "        if \"a\" <= ch <= \"z\" or \"A\" <= ch <= \"X\":\n",
    "            return True\n",
    "        if \"0\" <= ch <= \"9\":\n",
    "            return True\n",
    "    return False"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
    "data2 = []\n",
    "for d in data.itertuples():\n",
    "    title = d[1]\n",
    "    url = d[2]\n",
    "    cut = jieba.cut(title)\n",
    "    keyword = \"\"\n",
    "    for c in cut:\n",
    "        if check_contain_chinese(c):\n",
    "            keyword += \" \" + c\n",
    "    keyword = keyword.strip()  \n",
    "    data2.append([title, keyword, url])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>title</th>\n",
       "      <th>keyword</th>\n",
       "      <th>url</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>[公告]关于撤销 Allison1987 吧主管理权限的说明</td>\n",
       "      <td>公告 关于 撤销 Allison1987 吧 主 管理权限 的 说明</td>\n",
       "      <td>http://tieba.baidu.com/p/6014691898</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2012-2018好声音冠军导师和选手</td>\n",
       "      <td>2012 2018 好 声音 冠军 导师 和 选手</td>\n",
       "      <td>http://tieba.baidu.com/p/5910383348</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>潘长江敢于承认自己1米47，邓紫棋就非得说自己1米57的歌手</td>\n",
       "      <td>潘长江 敢于 承认 自己 1 米 47 邓紫棋 就 非得 说 自己 1 米 57 的 歌手</td>\n",
       "      <td>http://tieba.baidu.com/p/6032202300</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>我发表了一篇图片贴，大伙来看看吧~</td>\n",
       "      <td>我 发表 了 一篇 图片 贴 大伙 来看 看吧</td>\n",
       "      <td>http://tieba.baidu.com/p/6075461411</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>希望续了版权吧!</td>\n",
       "      <td>希望 续 了 版权 吧</td>\n",
       "      <td>http://tieba.baidu.com/p/6104244192</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>怎么撩妹？学会这几招，任何人都能追到喜欢的女生。</td>\n",
       "      <td>怎么 撩妹 学会 这 几招 任何人 都 能 追到 喜欢 的 女生</td>\n",
       "      <td>http://tieba.baidu.com/p/6078796540</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>听到你的声音</td>\n",
       "      <td>听到 你 的 声音</td>\n",
       "      <td>http://tieba.baidu.com/p/6100600410</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>愚民和邓紫棋不是对等关系，邓紫棋从来没把愚民当回事儿！</td>\n",
       "      <td>愚民 和 邓紫棋 不是 对等关系 邓紫棋 从来 没 把 愚民 当 回事儿</td>\n",
       "      <td>http://tieba.baidu.com/p/6103625087</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>四位导师 李健 哈林 谢霆锋 王力宏确定了？</td>\n",
       "      <td>四位 导师 李健 哈林 谢霆锋 王力宏 确定 了</td>\n",
       "      <td>http://tieba.baidu.com/p/6101441222</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>周杰伦的《米兰的小铁匠》是什么曲风？</td>\n",
       "      <td>周杰伦 的 米兰 的 小 铁匠 是 什么 曲风</td>\n",
       "      <td>http://tieba.baidu.com/p/4085362266</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>给大家推荐一个不错的选择</td>\n",
       "      <td>给 大家 推荐 一个 不错 的 选择</td>\n",
       "      <td>http://tieba.baidu.com/p/6093453073</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>想做富婆吗</td>\n",
       "      <td>想 做 富婆 吗</td>\n",
       "      <td>http://tieba.baidu.com/p/6082901374</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>你怎么舍得我难过 - 帕尔哈提</td>\n",
       "      <td>你 怎么 舍得 我 难过 帕尔哈 提</td>\n",
       "      <td>http://tieba.baidu.com/p/6103144136</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>该用户已经连续签到80天了，连续30天一举“橙”名</td>\n",
       "      <td>该 用户 已经 连续 签到 80 天 了 连续 30 天 一举 橙 名</td>\n",
       "      <td>http://tieba.baidu.com/home/main/?un=%E6%B5%B7...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>华粉真是</td>\n",
       "      <td>华粉 真是</td>\n",
       "      <td>http://tieba.baidu.com/p/6104215652</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>赵国周和外国网红们祝大家节日快乐！！~~</td>\n",
       "      <td>赵国 周 和 外国 网红们 祝 大家 节日快乐</td>\n",
       "      <td>http://tieba.baidu.com/p/5676664299</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>男生撩妹的正确打开方式，你知道吗？</td>\n",
       "      <td>男生 撩妹 的 正确 打开方式 你 知道 吗</td>\n",
       "      <td>http://tieba.baidu.com/p/6103176992</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>人这一辈子有多少70万呢 狗亚害人</td>\n",
       "      <td>人 这 一辈子 有 多少 70 万 呢 狗亚 害人</td>\n",
       "      <td>http://tieba.baidu.com/p/6072798596</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>狗亚你的报应什么时候来？</td>\n",
       "      <td>狗亚 你 的 报应 什么 时候 来</td>\n",
       "      <td>http://tieba.baidu.com/p/6066028716</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>小米有品有鱼邀请码</td>\n",
       "      <td>小米 有品 有 鱼 邀请 码</td>\n",
       "      <td>http://tieba.baidu.com/p/6104044921</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>我来华语内地女歌手唱功20强，牛人还真多</td>\n",
       "      <td>我来 华语 内地 女歌手 唱功 20 强 牛人 还 真多</td>\n",
       "      <td>http://tieba.baidu.com/p/4807255765</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>贼喊捉贼哦 你真是够可以的哦gou亚</td>\n",
       "      <td>贼喊捉贼 哦 你 真是 够 可以 的 哦 gou 亚</td>\n",
       "      <td>http://tieba.baidu.com/p/6063737898</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>浅谈女生在情感中的思想，帮你轻松追到喜欢的女生。</td>\n",
       "      <td>浅谈 女生 在 情感 中 的 思想 帮 你 轻松 追 到 喜欢 的 女生</td>\n",
       "      <td>http://tieba.baidu.com/p/6088154590</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>你继续，我看你狗亚下次怎么表演</td>\n",
       "      <td>你 继续 我 看 你 狗亚 下次 怎么 表演</td>\n",
       "      <td>http://tieba.baidu.com/p/6058022278</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>蔡依林咖位不够大么？ 蔡依林是宇宙小天后 亚洲唱跳第一天后</td>\n",
       "      <td>蔡依林 咖位 不够 大 么 蔡依林 是 宇宙 小天 后 亚洲 唱 跳 第一天 后</td>\n",
       "      <td>http://tieba.baidu.com/p/6104159386</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>爱自己，爱生活，活的健康向上，远离狗亚非法网赌</td>\n",
       "      <td>爱 自己 爱 生活 活 的 健康 向上 远离 狗亚 非法 网赌</td>\n",
       "      <td>http://tieba.baidu.com/p/6053200221</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>这套路还不深啊 狗亚</td>\n",
       "      <td>这 套路 还 不 深 啊 狗亚</td>\n",
       "      <td>http://tieba.baidu.com/p/6050963102</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>这季好声音没看点了</td>\n",
       "      <td>这季 好 声音 没 看点 了</td>\n",
       "      <td>http://tieba.baidu.com/p/6083346351</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>吧友们颤抖吧！华晨宇想当好声音导师！</td>\n",
       "      <td>吧 友们 颤抖 吧 华晨 宇想 当好 声音 导师</td>\n",
       "      <td>http://tieba.baidu.com/p/6081681174</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>狗亚的狗带的可怕之处就是无所不用其极。</td>\n",
       "      <td>狗亚 的 狗 带 的 可怕 之 处 就是 无所不用其极</td>\n",
       "      <td>http://tieba.baidu.com/p/6048922077</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28489</th>\n",
       "      <td>【一路有妮】19年04月13日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 13 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6099195809</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28490</th>\n",
       "      <td>【一路有妮】【请问】妮姐接下来拍什么戏啊？谢谢</td>\n",
       "      <td>一路 有妮 请问 妮姐 接下来 拍 什么 戏 啊 谢谢</td>\n",
       "      <td>http://tieba.baidu.com/p/6098004471</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28491</th>\n",
       "      <td>【一路有妮】19年04月12日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 12 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6098142466</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28492</th>\n",
       "      <td>姐，晚安</td>\n",
       "      <td>姐 晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6099254762</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28493</th>\n",
       "      <td>【一路有妮】好喜欢刚从俄罗斯回来的宝莉</td>\n",
       "      <td>一路 有妮 好 喜欢 刚 从 俄罗斯 回来 的 宝莉</td>\n",
       "      <td>http://tieba.baidu.com/p/3950827762</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28494</th>\n",
       "      <td>【一路有妮】19年04月10日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 10 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6096048824</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28495</th>\n",
       "      <td>活捉一只闫妮少女！</td>\n",
       "      <td>活捉 一只 闫妮 少女</td>\n",
       "      <td>http://tieba.baidu.com/p/6098177283</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28496</th>\n",
       "      <td>晚安，爱你，姐❤</td>\n",
       "      <td>晚安 爱 你 姐</td>\n",
       "      <td>http://tieba.baidu.com/p/6098122207</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28497</th>\n",
       "      <td>【一路有妮】19年04月11日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 11 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6097095512</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28498</th>\n",
       "      <td>姐，晚安</td>\n",
       "      <td>姐 晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6096047584</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28499</th>\n",
       "      <td>【一路有妮】6.02亿元！顾家家居斥资购买理财</td>\n",
       "      <td>一路 有妮 6.02 亿元 顾家 家居 斥资 购买 理财</td>\n",
       "      <td>http://tieba.baidu.com/p/6096057503</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28500</th>\n",
       "      <td>【一路有妮】19年04月09日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 09 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6094968730</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28501</th>\n",
       "      <td>晚安，爱你❤</td>\n",
       "      <td>晚安 爱 你</td>\n",
       "      <td>http://tieba.baidu.com/p/6093860552</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28502</th>\n",
       "      <td>【一路有妮】大美妮晚安！</td>\n",
       "      <td>一路 有妮 大美妮 晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6094961660</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28503</th>\n",
       "      <td>亲爱的姐，晚安</td>\n",
       "      <td>亲爱 的 姐 晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6095045516</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28504</th>\n",
       "      <td>【一路有妮】19年04月08日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 08 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6093885244</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28505</th>\n",
       "      <td>晚安，姐</td>\n",
       "      <td>晚安 姐</td>\n",
       "      <td>http://tieba.baidu.com/p/6092907541</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28506</th>\n",
       "      <td>【一路有妮】19年04月07日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 07 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6092882890</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28507</th>\n",
       "      <td>【一路有妮】上热搜啦！真的是越来越美！越来越小姑娘!这个姐有</td>\n",
       "      <td>一路 有妮 上 热 搜 啦 真的 是 越来越 美 越来越 小姑娘 这个 姐有</td>\n",
       "      <td>http://tieba.baidu.com/p/6092945867</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28508</th>\n",
       "      <td>姐，晚安</td>\n",
       "      <td>姐 晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6091802492</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28509</th>\n",
       "      <td>【一路有妮】19年04月06日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 06 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6091843774</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28510</th>\n",
       "      <td>【一路有妮】19年04月05版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 05 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6090809043</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28511</th>\n",
       "      <td>亲爱的姐，晚安</td>\n",
       "      <td>亲爱 的 姐 晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6088579884</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28512</th>\n",
       "      <td>我发表了一篇语音贴，大伙来看看吧~</td>\n",
       "      <td>我 发表 了 一篇 语音 贴 大伙 来看 看吧</td>\n",
       "      <td>http://tieba.baidu.com/p/5587697746</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28513</th>\n",
       "      <td>【一路有妮】2019.3.17～18活动小记～</td>\n",
       "      <td>一路 有妮 2019.3 17 18 活动 小记</td>\n",
       "      <td>http://tieba.baidu.com/p/6072808146</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28514</th>\n",
       "      <td>该用户已经连续签到1802天了，连续30天一举“橙”名</td>\n",
       "      <td>该 用户 已经 连续 签到 1802 天 了 连续 30 天 一举 橙 名</td>\n",
       "      <td>http://tieba.baidu.com/home/main/?un=zdn1121&amp;i...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28515</th>\n",
       "      <td>【一路有妮】19年04月04日版聊～～～</td>\n",
       "      <td>一路 有妮 19 年 04 月 04 日 版聊</td>\n",
       "      <td>http://tieba.baidu.com/p/6089689938</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28516</th>\n",
       "      <td>【一路有妮】#闫妮#@闫大腕儿 妮儿，额来喽</td>\n",
       "      <td>一路 有妮 闫妮 闫 大腕儿 妮儿 额来 喽</td>\n",
       "      <td>http://tieba.baidu.com/p/6062606173</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28517</th>\n",
       "      <td>【一路有妮】#闫妮310生日快乐#  😘妮儿，生日快乐～🎂🎉</td>\n",
       "      <td>一路 有妮 闫妮 310 生日快乐 妮儿 生日快乐</td>\n",
       "      <td>http://tieba.baidu.com/p/6061816576</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28518</th>\n",
       "      <td>【一路有妮】期待少年派</td>\n",
       "      <td>一路 有妮 期待 少年 派</td>\n",
       "      <td>http://tieba.baidu.com/p/6083290318</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>28519 rows × 3 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                title  \\\n",
       "0      [公告]关于撤销 Allison1987 吧主管理权限的说明   \n",
       "1                 2012-2018好声音冠军导师和选手   \n",
       "2      潘长江敢于承认自己1米47，邓紫棋就非得说自己1米57的歌手   \n",
       "3                   我发表了一篇图片贴，大伙来看看吧~   \n",
       "4                            希望续了版权吧!   \n",
       "5            怎么撩妹？学会这几招，任何人都能追到喜欢的女生。   \n",
       "6                              听到你的声音   \n",
       "7         愚民和邓紫棋不是对等关系，邓紫棋从来没把愚民当回事儿！   \n",
       "8              四位导师 李健 哈林 谢霆锋 王力宏确定了？   \n",
       "9                  周杰伦的《米兰的小铁匠》是什么曲风？   \n",
       "10                       给大家推荐一个不错的选择   \n",
       "11                              想做富婆吗   \n",
       "12                    你怎么舍得我难过 - 帕尔哈提   \n",
       "13          该用户已经连续签到80天了，连续30天一举“橙”名   \n",
       "14                               华粉真是   \n",
       "15               赵国周和外国网红们祝大家节日快乐！！~~   \n",
       "16                  男生撩妹的正确打开方式，你知道吗？   \n",
       "17                  人这一辈子有多少70万呢 狗亚害人   \n",
       "18                       狗亚你的报应什么时候来？   \n",
       "19                          小米有品有鱼邀请码   \n",
       "20               我来华语内地女歌手唱功20强，牛人还真多   \n",
       "21                 贼喊捉贼哦 你真是够可以的哦gou亚   \n",
       "22           浅谈女生在情感中的思想，帮你轻松追到喜欢的女生。   \n",
       "23                    你继续，我看你狗亚下次怎么表演   \n",
       "24      蔡依林咖位不够大么？ 蔡依林是宇宙小天后 亚洲唱跳第一天后   \n",
       "25            爱自己，爱生活，活的健康向上，远离狗亚非法网赌   \n",
       "26                         这套路还不深啊 狗亚   \n",
       "27                          这季好声音没看点了   \n",
       "28                 吧友们颤抖吧！华晨宇想当好声音导师！   \n",
       "29                狗亚的狗带的可怕之处就是无所不用其极。   \n",
       "...                               ...   \n",
       "28489            【一路有妮】19年04月13日版聊～～～   \n",
       "28490         【一路有妮】【请问】妮姐接下来拍什么戏啊？谢谢   \n",
       "28491            【一路有妮】19年04月12日版聊～～～   \n",
       "28492                            姐，晚安   \n",
       "28493             【一路有妮】好喜欢刚从俄罗斯回来的宝莉   \n",
       "28494            【一路有妮】19年04月10日版聊～～～   \n",
       "28495                       活捉一只闫妮少女！   \n",
       "28496                        晚安，爱你，姐❤   \n",
       "28497            【一路有妮】19年04月11日版聊～～～   \n",
       "28498                            姐，晚安   \n",
       "28499         【一路有妮】6.02亿元！顾家家居斥资购买理财   \n",
       "28500            【一路有妮】19年04月09日版聊～～～   \n",
       "28501                          晚安，爱你❤   \n",
       "28502                    【一路有妮】大美妮晚安！   \n",
       "28503                         亲爱的姐，晚安   \n",
       "28504            【一路有妮】19年04月08日版聊～～～   \n",
       "28505                            晚安，姐   \n",
       "28506            【一路有妮】19年04月07日版聊～～～   \n",
       "28507  【一路有妮】上热搜啦！真的是越来越美！越来越小姑娘!这个姐有   \n",
       "28508                            姐，晚安   \n",
       "28509            【一路有妮】19年04月06日版聊～～～   \n",
       "28510             【一路有妮】19年04月05版聊～～～   \n",
       "28511                         亲爱的姐，晚安   \n",
       "28512               我发表了一篇语音贴，大伙来看看吧~   \n",
       "28513         【一路有妮】2019.3.17～18活动小记～   \n",
       "28514     该用户已经连续签到1802天了，连续30天一举“橙”名   \n",
       "28515            【一路有妮】19年04月04日版聊～～～   \n",
       "28516          【一路有妮】#闫妮#@闫大腕儿 妮儿，额来喽   \n",
       "28517  【一路有妮】#闫妮310生日快乐#  😘妮儿，生日快乐～🎂🎉   \n",
       "28518                     【一路有妮】期待少年派   \n",
       "\n",
       "                                             keyword  \\\n",
       "0                 公告 关于 撤销 Allison1987 吧 主 管理权限 的 说明   \n",
       "1                          2012 2018 好 声音 冠军 导师 和 选手   \n",
       "2      潘长江 敢于 承认 自己 1 米 47 邓紫棋 就 非得 说 自己 1 米 57 的 歌手   \n",
       "3                            我 发表 了 一篇 图片 贴 大伙 来看 看吧   \n",
       "4                                        希望 续 了 版权 吧   \n",
       "5                   怎么 撩妹 学会 这 几招 任何人 都 能 追到 喜欢 的 女生   \n",
       "6                                          听到 你 的 声音   \n",
       "7               愚民 和 邓紫棋 不是 对等关系 邓紫棋 从来 没 把 愚民 当 回事儿   \n",
       "8                           四位 导师 李健 哈林 谢霆锋 王力宏 确定 了   \n",
       "9                            周杰伦 的 米兰 的 小 铁匠 是 什么 曲风   \n",
       "10                                给 大家 推荐 一个 不错 的 选择   \n",
       "11                                          想 做 富婆 吗   \n",
       "12                                你 怎么 舍得 我 难过 帕尔哈 提   \n",
       "13               该 用户 已经 连续 签到 80 天 了 连续 30 天 一举 橙 名   \n",
       "14                                             华粉 真是   \n",
       "15                           赵国 周 和 外国 网红们 祝 大家 节日快乐   \n",
       "16                            男生 撩妹 的 正确 打开方式 你 知道 吗   \n",
       "17                         人 这 一辈子 有 多少 70 万 呢 狗亚 害人   \n",
       "18                                 狗亚 你 的 报应 什么 时候 来   \n",
       "19                                    小米 有品 有 鱼 邀请 码   \n",
       "20                      我来 华语 内地 女歌手 唱功 20 强 牛人 还 真多   \n",
       "21                        贼喊捉贼 哦 你 真是 够 可以 的 哦 gou 亚   \n",
       "22              浅谈 女生 在 情感 中 的 思想 帮 你 轻松 追 到 喜欢 的 女生   \n",
       "23                            你 继续 我 看 你 狗亚 下次 怎么 表演   \n",
       "24          蔡依林 咖位 不够 大 么 蔡依林 是 宇宙 小天 后 亚洲 唱 跳 第一天 后   \n",
       "25                   爱 自己 爱 生活 活 的 健康 向上 远离 狗亚 非法 网赌   \n",
       "26                                   这 套路 还 不 深 啊 狗亚   \n",
       "27                                    这季 好 声音 没 看点 了   \n",
       "28                          吧 友们 颤抖 吧 华晨 宇想 当好 声音 导师   \n",
       "29                       狗亚 的 狗 带 的 可怕 之 处 就是 无所不用其极   \n",
       "...                                              ...   \n",
       "28489                        一路 有妮 19 年 04 月 13 日 版聊   \n",
       "28490                    一路 有妮 请问 妮姐 接下来 拍 什么 戏 啊 谢谢   \n",
       "28491                        一路 有妮 19 年 04 月 12 日 版聊   \n",
       "28492                                           姐 晚安   \n",
       "28493                     一路 有妮 好 喜欢 刚 从 俄罗斯 回来 的 宝莉   \n",
       "28494                        一路 有妮 19 年 04 月 10 日 版聊   \n",
       "28495                                    活捉 一只 闫妮 少女   \n",
       "28496                                       晚安 爱 你 姐   \n",
       "28497                        一路 有妮 19 年 04 月 11 日 版聊   \n",
       "28498                                           姐 晚安   \n",
       "28499                   一路 有妮 6.02 亿元 顾家 家居 斥资 购买 理财   \n",
       "28500                        一路 有妮 19 年 04 月 09 日 版聊   \n",
       "28501                                         晚安 爱 你   \n",
       "28502                                   一路 有妮 大美妮 晚安   \n",
       "28503                                      亲爱 的 姐 晚安   \n",
       "28504                        一路 有妮 19 年 04 月 08 日 版聊   \n",
       "28505                                           晚安 姐   \n",
       "28506                        一路 有妮 19 年 04 月 07 日 版聊   \n",
       "28507         一路 有妮 上 热 搜 啦 真的 是 越来越 美 越来越 小姑娘 这个 姐有   \n",
       "28508                                           姐 晚安   \n",
       "28509                        一路 有妮 19 年 04 月 06 日 版聊   \n",
       "28510                          一路 有妮 19 年 04 月 05 版聊   \n",
       "28511                                      亲爱 的 姐 晚安   \n",
       "28512                        我 发表 了 一篇 语音 贴 大伙 来看 看吧   \n",
       "28513                       一路 有妮 2019.3 17 18 活动 小记   \n",
       "28514          该 用户 已经 连续 签到 1802 天 了 连续 30 天 一举 橙 名   \n",
       "28515                        一路 有妮 19 年 04 月 04 日 版聊   \n",
       "28516                         一路 有妮 闫妮 闫 大腕儿 妮儿 额来 喽   \n",
       "28517                      一路 有妮 闫妮 310 生日快乐 妮儿 生日快乐   \n",
       "28518                                  一路 有妮 期待 少年 派   \n",
       "\n",
       "                                                     url  \n",
       "0                    http://tieba.baidu.com/p/6014691898  \n",
       "1                    http://tieba.baidu.com/p/5910383348  \n",
       "2                    http://tieba.baidu.com/p/6032202300  \n",
       "3                    http://tieba.baidu.com/p/6075461411  \n",
       "4                    http://tieba.baidu.com/p/6104244192  \n",
       "5                    http://tieba.baidu.com/p/6078796540  \n",
       "6                    http://tieba.baidu.com/p/6100600410  \n",
       "7                    http://tieba.baidu.com/p/6103625087  \n",
       "8                    http://tieba.baidu.com/p/6101441222  \n",
       "9                    http://tieba.baidu.com/p/4085362266  \n",
       "10                   http://tieba.baidu.com/p/6093453073  \n",
       "11                   http://tieba.baidu.com/p/6082901374  \n",
       "12                   http://tieba.baidu.com/p/6103144136  \n",
       "13     http://tieba.baidu.com/home/main/?un=%E6%B5%B7...  \n",
       "14                   http://tieba.baidu.com/p/6104215652  \n",
       "15                   http://tieba.baidu.com/p/5676664299  \n",
       "16                   http://tieba.baidu.com/p/6103176992  \n",
       "17                   http://tieba.baidu.com/p/6072798596  \n",
       "18                   http://tieba.baidu.com/p/6066028716  \n",
       "19                   http://tieba.baidu.com/p/6104044921  \n",
       "20                   http://tieba.baidu.com/p/4807255765  \n",
       "21                   http://tieba.baidu.com/p/6063737898  \n",
       "22                   http://tieba.baidu.com/p/6088154590  \n",
       "23                   http://tieba.baidu.com/p/6058022278  \n",
       "24                   http://tieba.baidu.com/p/6104159386  \n",
       "25                   http://tieba.baidu.com/p/6053200221  \n",
       "26                   http://tieba.baidu.com/p/6050963102  \n",
       "27                   http://tieba.baidu.com/p/6083346351  \n",
       "28                   http://tieba.baidu.com/p/6081681174  \n",
       "29                   http://tieba.baidu.com/p/6048922077  \n",
       "...                                                  ...  \n",
       "28489                http://tieba.baidu.com/p/6099195809  \n",
       "28490                http://tieba.baidu.com/p/6098004471  \n",
       "28491                http://tieba.baidu.com/p/6098142466  \n",
       "28492                http://tieba.baidu.com/p/6099254762  \n",
       "28493                http://tieba.baidu.com/p/3950827762  \n",
       "28494                http://tieba.baidu.com/p/6096048824  \n",
       "28495                http://tieba.baidu.com/p/6098177283  \n",
       "28496                http://tieba.baidu.com/p/6098122207  \n",
       "28497                http://tieba.baidu.com/p/6097095512  \n",
       "28498                http://tieba.baidu.com/p/6096047584  \n",
       "28499                http://tieba.baidu.com/p/6096057503  \n",
       "28500                http://tieba.baidu.com/p/6094968730  \n",
       "28501                http://tieba.baidu.com/p/6093860552  \n",
       "28502                http://tieba.baidu.com/p/6094961660  \n",
       "28503                http://tieba.baidu.com/p/6095045516  \n",
       "28504                http://tieba.baidu.com/p/6093885244  \n",
       "28505                http://tieba.baidu.com/p/6092907541  \n",
       "28506                http://tieba.baidu.com/p/6092882890  \n",
       "28507                http://tieba.baidu.com/p/6092945867  \n",
       "28508                http://tieba.baidu.com/p/6091802492  \n",
       "28509                http://tieba.baidu.com/p/6091843774  \n",
       "28510                http://tieba.baidu.com/p/6090809043  \n",
       "28511                http://tieba.baidu.com/p/6088579884  \n",
       "28512                http://tieba.baidu.com/p/5587697746  \n",
       "28513                http://tieba.baidu.com/p/6072808146  \n",
       "28514  http://tieba.baidu.com/home/main/?un=zdn1121&i...  \n",
       "28515                http://tieba.baidu.com/p/6089689938  \n",
       "28516                http://tieba.baidu.com/p/6062606173  \n",
       "28517                http://tieba.baidu.com/p/6061816576  \n",
       "28518                http://tieba.baidu.com/p/6083290318  \n",
       "\n",
       "[28519 rows x 3 columns]"
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data3 = pd.DataFrame(data2, columns=[\"title\", \"keyword\", \"url\"])\n",
    "data3"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {},
   "outputs": [],
   "source": [
    "data3.to_csv(\"./data/cleaned_database.csv\", index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[公告]关于撤销 Allison1987 吧主管理权限的说明\n",
      "公告 关于 撤销 Allison1987 吧 主 管理权限 的 说明\n",
      "http://tieba.baidu.com/p/6014691898\n"
     ]
    }
   ],
   "source": [
    "for line in data3.itertuples():\n",
    "    title, keyword, url = line[1],line[2],line[3]\n",
    "    print(title)\n",
    "    print(keyword)\n",
    "    print(url)\n",
    "    break\n",
    "    "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 31,
   "metadata": {},
   "outputs": [],
   "source": [
    "conn = sqlite3.connect(\"./data/database.db\")\n",
    "c = conn.cursor()\n",
    "\n",
    "# 创建数据库\n",
    "sql = \"drop table page_info;\"\n",
    "c.execute(sql)\n",
    "conn.commit()\n",
    "\n",
    "sql = \"\"\"\n",
    "    create table page_info(\n",
    "        id INTEGER PRIMARY KEY,\n",
    "        keyword text not null,\n",
    "        url text not null\n",
    "    );\n",
    "\"\"\"\n",
    "c.execute(sql)\n",
    "conn.commit()\n",
    "\n",
    "\n",
    "# 创建索引表\n",
    "sql = \"\"\"\n",
    "    create table page_index(\n",
    "        id INTEGER PRIMARY KEY,\n",
    "        keyword text not null,\n",
    "        page_id INTEGER not null\n",
    "    );\n",
    "\"\"\"\n",
    "c.execute(sql)\n",
    "conn.commit()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 66,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "50 28519\n",
      "100 28519\n",
      "150 28519\n",
      "200 28519\n",
      "250 28519\n",
      "300 28519\n",
      "350 28519\n",
      "400 28519\n",
      "450 28519\n",
      "500 28519\n",
      "550 28519\n",
      "600 28519\n",
      "650 28519\n",
      "700 28519\n",
      "750 28519\n",
      "800 28519\n",
      "850 28519\n",
      "900 28519\n",
      "950 28519\n",
      "1000 28519\n",
      "1050 28519\n",
      "1100 28519\n",
      "1150 28519\n",
      "1200 28519\n",
      "1250 28519\n",
      "1300 28519\n",
      "1350 28519\n",
      "1400 28519\n",
      "1450 28519\n",
      "1500 28519\n",
      "1550 28519\n",
      "1600 28519\n",
      "1650 28519\n",
      "1700 28519\n",
      "1750 28519\n",
      "1800 28519\n",
      "1850 28519\n",
      "1900 28519\n",
      "1950 28519\n",
      "2000 28519\n",
      "2050 28519\n",
      "2100 28519\n",
      "2150 28519\n",
      "2200 28519\n",
      "2250 28519\n",
      "2300 28519\n",
      "2350 28519\n",
      "2400 28519\n",
      "2450 28519\n",
      "2500 28519\n",
      "2550 28519\n",
      "2600 28519\n",
      "2650 28519\n",
      "2700 28519\n",
      "2750 28519\n",
      "2800 28519\n",
      "2850 28519\n",
      "2900 28519\n",
      "2950 28519\n",
      "3000 28519\n",
      "3050 28519\n",
      "3100 28519\n",
      "3150 28519\n",
      "3200 28519\n",
      "3250 28519\n",
      "3300 28519\n",
      "3350 28519\n",
      "3400 28519\n",
      "3450 28519\n",
      "3500 28519\n",
      "3550 28519\n",
      "3600 28519\n",
      "3650 28519\n",
      "3700 28519\n",
      "3750 28519\n",
      "3800 28519\n",
      "3850 28519\n",
      "3900 28519\n",
      "3950 28519\n",
      "4000 28519\n",
      "4050 28519\n",
      "4100 28519\n",
      "4150 28519\n",
      "4200 28519\n",
      "4250 28519\n",
      "4300 28519\n",
      "4350 28519\n",
      "4400 28519\n",
      "4450 28519\n",
      "4500 28519\n",
      "4550 28519\n",
      "4600 28519\n",
      "4650 28519\n",
      "4700 28519\n",
      "4750 28519\n",
      "4800 28519\n",
      "4850 28519\n",
      "4900 28519\n",
      "4950 28519\n",
      "5000 28519\n",
      "5050 28519\n",
      "5100 28519\n",
      "5150 28519\n",
      "5200 28519\n",
      "5250 28519\n",
      "5300 28519\n",
      "5350 28519\n",
      "5400 28519\n",
      "5450 28519\n",
      "5500 28519\n",
      "5550 28519\n",
      "5600 28519\n",
      "5650 28519\n",
      "5700 28519\n",
      "5750 28519\n",
      "5800 28519\n",
      "5850 28519\n",
      "5900 28519\n",
      "5950 28519\n",
      "6000 28519\n",
      "6050 28519\n",
      "6100 28519\n",
      "6150 28519\n",
      "6200 28519\n",
      "6250 28519\n",
      "6300 28519\n",
      "6350 28519\n",
      "6400 28519\n",
      "6450 28519\n",
      "6500 28519\n",
      "6550 28519\n",
      "6600 28519\n",
      "6650 28519\n",
      "6700 28519\n",
      "6750 28519\n",
      "6800 28519\n",
      "6850 28519\n",
      "6900 28519\n",
      "6950 28519\n",
      "7000 28519\n",
      "7050 28519\n",
      "7100 28519\n",
      "7150 28519\n",
      "7200 28519\n",
      "7250 28519\n",
      "7300 28519\n",
      "7350 28519\n",
      "7400 28519\n",
      "7450 28519\n",
      "7500 28519\n",
      "7550 28519\n",
      "7600 28519\n",
      "7650 28519\n",
      "7700 28519\n",
      "7750 28519\n",
      "7800 28519\n",
      "7850 28519\n",
      "7900 28519\n",
      "7950 28519\n",
      "8000 28519\n",
      "8050 28519\n",
      "8100 28519\n",
      "8150 28519\n",
      "8200 28519\n",
      "8250 28519\n",
      "8300 28519\n",
      "8350 28519\n",
      "8400 28519\n",
      "8450 28519\n",
      "8500 28519\n",
      "8550 28519\n",
      "8600 28519\n",
      "8650 28519\n",
      "8700 28519\n",
      "8750 28519\n",
      "8800 28519\n",
      "8850 28519\n",
      "8900 28519\n",
      "8950 28519\n",
      "9000 28519\n",
      "9050 28519\n",
      "9100 28519\n",
      "9150 28519\n",
      "9200 28519\n",
      "9250 28519\n",
      "9300 28519\n",
      "9350 28519\n",
      "9400 28519\n",
      "9450 28519\n",
      "9500 28519\n",
      "9550 28519\n",
      "9600 28519\n",
      "9650 28519\n",
      "9700 28519\n",
      "9750 28519\n",
      "9800 28519\n",
      "9850 28519\n",
      "9900 28519\n",
      "9950 28519\n",
      "10000 28519\n",
      "10050 28519\n",
      "10100 28519\n",
      "10150 28519\n",
      "10200 28519\n",
      "10250 28519\n",
      "10300 28519\n",
      "10350 28519\n",
      "10400 28519\n",
      "10450 28519\n",
      "10500 28519\n",
      "10550 28519\n",
      "10600 28519\n",
      "10650 28519\n",
      "10700 28519\n",
      "10750 28519\n",
      "10800 28519\n",
      "10850 28519\n",
      "10900 28519\n",
      "10950 28519\n",
      "11000 28519\n",
      "11050 28519\n",
      "11100 28519\n",
      "11150 28519\n",
      "11200 28519\n",
      "11250 28519\n",
      "11300 28519\n",
      "11350 28519\n",
      "11400 28519\n",
      "11450 28519\n",
      "11500 28519\n",
      "11550 28519\n",
      "11600 28519\n",
      "11650 28519\n",
      "11700 28519\n",
      "11750 28519\n",
      "11800 28519\n",
      "11850 28519\n",
      "11900 28519\n",
      "11950 28519\n",
      "12000 28519\n",
      "12050 28519\n",
      "12100 28519\n",
      "12150 28519\n",
      "12200 28519\n",
      "12250 28519\n",
      "12300 28519\n",
      "12350 28519\n",
      "12400 28519\n",
      "12450 28519\n",
      "12500 28519\n",
      "12550 28519\n",
      "12600 28519\n",
      "12650 28519\n",
      "12700 28519\n",
      "12750 28519\n",
      "12800 28519\n",
      "12850 28519\n",
      "12900 28519\n",
      "12950 28519\n",
      "13000 28519\n",
      "13050 28519\n",
      "13100 28519\n",
      "13150 28519\n",
      "13200 28519\n",
      "13250 28519\n",
      "13300 28519\n",
      "13350 28519\n",
      "13400 28519\n",
      "13450 28519\n",
      "13500 28519\n",
      "13550 28519\n",
      "13600 28519\n",
      "13650 28519\n",
      "13700 28519\n",
      "13750 28519\n",
      "13800 28519\n",
      "13850 28519\n",
      "13900 28519\n",
      "13950 28519\n",
      "14000 28519\n",
      "14050 28519\n",
      "14100 28519\n",
      "14150 28519\n",
      "14200 28519\n",
      "14250 28519\n",
      "14300 28519\n",
      "14350 28519\n",
      "14400 28519\n",
      "14450 28519\n",
      "14500 28519\n",
      "14550 28519\n",
      "14600 28519\n",
      "14650 28519\n",
      "14700 28519\n",
      "14750 28519\n",
      "14800 28519\n",
      "14850 28519\n",
      "14900 28519\n",
      "14950 28519\n",
      "15000 28519\n",
      "15050 28519\n",
      "15100 28519\n",
      "15150 28519\n",
      "15200 28519\n",
      "15250 28519\n",
      "15300 28519\n",
      "15350 28519\n",
      "15400 28519\n",
      "15450 28519\n",
      "15500 28519\n",
      "15550 28519\n",
      "15600 28519\n",
      "15650 28519\n",
      "15700 28519\n",
      "15750 28519\n",
      "15800 28519\n",
      "15850 28519\n",
      "15900 28519\n",
      "15950 28519\n",
      "16000 28519\n",
      "16050 28519\n",
      "16100 28519\n",
      "16150 28519\n",
      "16200 28519\n",
      "16250 28519\n",
      "16300 28519\n",
      "16350 28519\n",
      "16400 28519\n",
      "16450 28519\n",
      "16500 28519\n",
      "16550 28519\n",
      "16600 28519\n",
      "16650 28519\n",
      "16700 28519\n",
      "16750 28519\n",
      "16800 28519\n",
      "16850 28519\n",
      "16900 28519\n",
      "16950 28519\n",
      "17000 28519\n",
      "17050 28519\n",
      "17100 28519\n",
      "17150 28519\n",
      "17200 28519\n",
      "17250 28519\n",
      "17300 28519\n",
      "17350 28519\n",
      "17400 28519\n",
      "17450 28519\n",
      "17500 28519\n",
      "17550 28519\n",
      "17600 28519\n",
      "17650 28519\n",
      "17700 28519\n",
      "17750 28519\n",
      "17800 28519\n",
      "17850 28519\n",
      "17900 28519\n",
      "17950 28519\n",
      "18000 28519\n",
      "18050 28519\n",
      "18100 28519\n",
      "18150 28519\n",
      "18200 28519\n",
      "18250 28519\n",
      "18300 28519\n",
      "18350 28519\n",
      "18400 28519\n",
      "18450 28519\n",
      "18500 28519\n",
      "18550 28519\n",
      "18600 28519\n",
      "18650 28519\n",
      "18700 28519\n",
      "18750 28519\n",
      "18800 28519\n",
      "18850 28519\n",
      "18900 28519\n",
      "18950 28519\n",
      "19000 28519\n",
      "19050 28519\n",
      "19100 28519\n",
      "19150 28519\n",
      "19200 28519\n",
      "19250 28519\n",
      "19300 28519\n",
      "19350 28519\n",
      "19400 28519\n",
      "19450 28519\n",
      "19500 28519\n",
      "19550 28519\n",
      "19600 28519\n",
      "19650 28519\n",
      "19700 28519\n",
      "19750 28519\n",
      "19800 28519\n",
      "19850 28519\n",
      "19900 28519\n",
      "19950 28519\n",
      "20000 28519\n",
      "20050 28519\n",
      "20100 28519\n",
      "20150 28519\n",
      "20200 28519\n",
      "20250 28519\n",
      "20300 28519\n",
      "20350 28519\n",
      "20400 28519\n",
      "20450 28519\n",
      "20500 28519\n",
      "20550 28519\n",
      "20600 28519\n",
      "20650 28519\n",
      "20700 28519\n",
      "20750 28519\n",
      "20800 28519\n",
      "20850 28519\n",
      "20900 28519\n",
      "20950 28519\n",
      "21000 28519\n",
      "21050 28519\n",
      "21100 28519\n",
      "21150 28519\n",
      "21200 28519\n",
      "21250 28519\n",
      "21300 28519\n",
      "21350 28519\n",
      "21400 28519\n",
      "21450 28519\n",
      "21500 28519\n",
      "21550 28519\n",
      "21600 28519\n",
      "21650 28519\n",
      "21700 28519\n",
      "21750 28519\n",
      "21800 28519\n",
      "21850 28519\n",
      "21900 28519\n",
      "21950 28519\n",
      "22000 28519\n",
      "22050 28519\n",
      "22100 28519\n",
      "22150 28519\n",
      "22200 28519\n",
      "22250 28519\n",
      "22300 28519\n",
      "22350 28519\n",
      "22400 28519\n",
      "22450 28519\n",
      "22500 28519\n",
      "22550 28519\n",
      "22600 28519\n",
      "22650 28519\n",
      "22700 28519\n",
      "22750 28519\n",
      "22800 28519\n",
      "22850 28519\n",
      "22900 28519\n",
      "22950 28519\n",
      "23000 28519\n",
      "23050 28519\n",
      "23100 28519\n",
      "23150 28519\n",
      "23200 28519\n",
      "23250 28519\n",
      "23300 28519\n",
      "23350 28519\n",
      "23400 28519\n",
      "23450 28519\n",
      "23500 28519\n",
      "23550 28519\n",
      "23600 28519\n",
      "23650 28519\n",
      "23700 28519\n",
      "23750 28519\n",
      "23800 28519\n",
      "23850 28519\n",
      "23900 28519\n",
      "23950 28519\n",
      "24000 28519\n",
      "24050 28519\n",
      "24100 28519\n",
      "24150 28519\n",
      "24200 28519\n",
      "24250 28519\n",
      "24300 28519\n",
      "24350 28519\n",
      "24400 28519\n",
      "24450 28519\n",
      "24500 28519\n",
      "24550 28519\n",
      "24600 28519\n",
      "24650 28519\n",
      "24700 28519\n",
      "24750 28519\n",
      "24800 28519\n",
      "24850 28519\n",
      "24900 28519\n",
      "24950 28519\n",
      "25000 28519\n",
      "25050 28519\n",
      "25100 28519\n",
      "25150 28519\n",
      "25200 28519\n",
      "25250 28519\n",
      "25300 28519\n",
      "25350 28519\n",
      "25400 28519\n",
      "25450 28519\n",
      "25500 28519\n",
      "25550 28519\n",
      "25600 28519\n",
      "25650 28519\n",
      "25700 28519\n",
      "25750 28519\n",
      "25800 28519\n",
      "25850 28519\n",
      "25900 28519\n",
      "25950 28519\n",
      "26000 28519\n",
      "26050 28519\n",
      "26100 28519\n",
      "26150 28519\n",
      "26200 28519\n",
      "26250 28519\n",
      "26300 28519\n",
      "26350 28519\n",
      "26400 28519\n",
      "26450 28519\n",
      "26500 28519\n",
      "26550 28519\n",
      "26600 28519\n",
      "26650 28519\n",
      "26700 28519\n",
      "26750 28519\n",
      "26800 28519\n",
      "26850 28519\n",
      "26900 28519\n",
      "26950 28519\n",
      "27000 28519\n",
      "27050 28519\n",
      "27100 28519\n",
      "27150 28519\n",
      "27200 28519\n",
      "27250 28519\n",
      "27300 28519\n",
      "27350 28519\n",
      "27400 28519\n",
      "27450 28519\n",
      "27500 28519\n",
      "27550 28519\n",
      "27600 28519\n",
      "27650 28519\n",
      "27700 28519\n",
      "27750 28519\n",
      "27800 28519\n",
      "27850 28519\n",
      "27900 28519\n",
      "27950 28519\n",
      "28000 28519\n",
      "28050 28519\n",
      "28100 28519\n",
      "28150 28519\n",
      "28200 28519\n",
      "28250 28519\n",
      "28300 28519\n",
      "28350 28519\n",
      "28400 28519\n",
      "28450 28519\n",
      "28500 28519\n",
      "100 28519\n",
      "200 28519\n",
      "300 28519\n",
      "400 28519\n",
      "500 28519\n",
      "600 28519\n",
      "700 28519\n",
      "800 28519\n",
      "900 28519\n",
      "1000 28519\n",
      "1100 28519\n",
      "1200 28519\n",
      "1300 28519\n",
      "1400 28519\n",
      "1500 28519\n",
      "1600 28519\n",
      "1700 28519\n",
      "1800 28519\n",
      "1900 28519\n",
      "2000 28519\n",
      "2100 28519\n",
      "2200 28519\n",
      "2300 28519\n",
      "2400 28519\n",
      "2500 28519\n",
      "2600 28519\n",
      "2700 28519\n",
      "2800 28519\n",
      "2900 28519\n",
      "3000 28519\n",
      "3100 28519\n",
      "3200 28519\n",
      "3300 28519\n",
      "3400 28519\n",
      "3500 28519\n",
      "3600 28519\n",
      "3700 28519\n",
      "3800 28519\n",
      "3900 28519\n",
      "4000 28519\n",
      "4100 28519\n",
      "4200 28519\n",
      "4300 28519\n",
      "4400 28519\n",
      "4500 28519\n",
      "4600 28519\n",
      "4700 28519\n",
      "4800 28519\n",
      "4900 28519\n",
      "5000 28519\n",
      "5100 28519\n",
      "5200 28519\n",
      "5300 28519\n",
      "5400 28519\n",
      "5500 28519\n",
      "5600 28519\n",
      "5700 28519\n",
      "5800 28519\n",
      "5900 28519\n",
      "6000 28519\n",
      "6100 28519\n",
      "6200 28519\n",
      "6300 28519\n",
      "6400 28519\n",
      "6500 28519\n",
      "6600 28519\n",
      "6700 28519\n",
      "6800 28519\n",
      "6900 28519\n",
      "7000 28519\n",
      "7100 28519\n",
      "7200 28519\n",
      "7300 28519\n",
      "7400 28519\n",
      "7500 28519\n",
      "7600 28519\n",
      "7700 28519\n",
      "7800 28519\n",
      "7900 28519\n",
      "8000 28519\n",
      "8100 28519\n",
      "8200 28519\n",
      "8300 28519\n",
      "8400 28519\n",
      "8500 28519\n",
      "8600 28519\n",
      "8700 28519\n",
      "8800 28519\n",
      "8900 28519\n",
      "9000 28519\n",
      "9100 28519\n",
      "9200 28519\n",
      "9300 28519\n",
      "9400 28519\n",
      "9500 28519\n",
      "9600 28519\n",
      "9700 28519\n",
      "9800 28519\n",
      "9900 28519\n",
      "10000 28519\n",
      "10100 28519\n",
      "10200 28519\n",
      "10300 28519\n",
      "10400 28519\n",
      "10500 28519\n",
      "10600 28519\n",
      "10700 28519\n",
      "10800 28519\n",
      "10900 28519\n",
      "11000 28519\n",
      "11100 28519\n",
      "11200 28519\n",
      "11300 28519\n",
      "11400 28519\n",
      "11500 28519\n",
      "11600 28519\n",
      "11700 28519\n",
      "11800 28519\n",
      "11900 28519\n",
      "12000 28519\n",
      "12100 28519\n",
      "12200 28519\n",
      "12300 28519\n",
      "12400 28519\n",
      "12500 28519\n",
      "12600 28519\n",
      "12700 28519\n",
      "12800 28519\n",
      "12900 28519\n",
      "13000 28519\n",
      "13100 28519\n",
      "13200 28519\n",
      "13300 28519\n",
      "13400 28519\n",
      "13500 28519\n",
      "13600 28519\n",
      "13700 28519\n",
      "13800 28519\n",
      "13900 28519\n",
      "14000 28519\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "14100 28519\n",
      "14200 28519\n",
      "14300 28519\n",
      "14400 28519\n",
      "14500 28519\n",
      "14600 28519\n",
      "14700 28519\n",
      "14800 28519\n",
      "14900 28519\n",
      "15000 28519\n",
      "15100 28519\n",
      "15200 28519\n",
      "15300 28519\n",
      "15400 28519\n",
      "15500 28519\n",
      "15600 28519\n",
      "15700 28519\n",
      "15800 28519\n",
      "15900 28519\n",
      "16000 28519\n",
      "16100 28519\n",
      "16200 28519\n",
      "16300 28519\n",
      "16400 28519\n",
      "16500 28519\n",
      "16600 28519\n",
      "16700 28519\n",
      "16800 28519\n",
      "16900 28519\n",
      "17000 28519\n",
      "17100 28519\n",
      "17200 28519\n",
      "17300 28519\n",
      "17400 28519\n",
      "17500 28519\n",
      "17600 28519\n",
      "17700 28519\n",
      "17800 28519\n",
      "17900 28519\n",
      "18000 28519\n",
      "18100 28519\n",
      "18200 28519\n",
      "18300 28519\n",
      "18400 28519\n",
      "18500 28519\n",
      "18600 28519\n",
      "18700 28519\n",
      "18800 28519\n",
      "18900 28519\n",
      "19000 28519\n",
      "19100 28519\n",
      "19200 28519\n",
      "19300 28519\n",
      "19400 28519\n",
      "19500 28519\n",
      "19600 28519\n",
      "19700 28519\n",
      "19800 28519\n",
      "19900 28519\n",
      "20000 28519\n",
      "20100 28519\n",
      "20200 28519\n",
      "20300 28519\n",
      "20400 28519\n",
      "20500 28519\n",
      "20600 28519\n",
      "20700 28519\n",
      "20800 28519\n",
      "20900 28519\n",
      "21000 28519\n",
      "21100 28519\n",
      "21200 28519\n",
      "21300 28519\n",
      "21400 28519\n",
      "21500 28519\n",
      "21600 28519\n",
      "21700 28519\n",
      "21800 28519\n",
      "21900 28519\n",
      "22000 28519\n",
      "22100 28519\n",
      "22200 28519\n",
      "22300 28519\n",
      "22400 28519\n",
      "22500 28519\n",
      "22600 28519\n",
      "22700 28519\n",
      "22800 28519\n",
      "22900 28519\n",
      "23000 28519\n",
      "23100 28519\n",
      "23200 28519\n",
      "23300 28519\n",
      "23400 28519\n",
      "23500 28519\n",
      "23600 28519\n",
      "23700 28519\n",
      "23800 28519\n",
      "23900 28519\n",
      "24000 28519\n",
      "24100 28519\n",
      "24200 28519\n",
      "24300 28519\n",
      "24400 28519\n",
      "24500 28519\n",
      "24600 28519\n",
      "24700 28519\n",
      "24800 28519\n",
      "24900 28519\n",
      "25000 28519\n",
      "25100 28519\n",
      "25200 28519\n",
      "25300 28519\n",
      "25400 28519\n",
      "25500 28519\n",
      "25600 28519\n",
      "25700 28519\n",
      "25800 28519\n",
      "25900 28519\n",
      "26000 28519\n",
      "26100 28519\n",
      "26200 28519\n",
      "26300 28519\n",
      "26400 28519\n",
      "26500 28519\n",
      "26600 28519\n",
      "26700 28519\n",
      "26800 28519\n",
      "26900 28519\n",
      "27000 28519\n",
      "27100 28519\n",
      "27200 28519\n",
      "27300 28519\n",
      "27400 28519\n",
      "27500 28519\n",
      "27600 28519\n",
      "27700 28519\n",
      "27800 28519\n",
      "27900 28519\n",
      "28000 28519\n",
      "28100 28519\n",
      "28200 28519\n",
      "28300 28519\n",
      "28400 28519\n",
      "28500 28519\n"
     ]
    }
   ],
   "source": [
    "sql = \"delete from page_info;\"\n",
    "c.execute(sql)\n",
    "conn.commit()\n",
    "\n",
    "\n",
    "# 插入到数据库\n",
    "i = 0\n",
    "for line in data3.itertuples():\n",
    "    title, keyword, url = line[1],line[2],line[3]\n",
    "    sql = \"\"\"\n",
    "        insert into page_info (url, keyword) \n",
    "        values('%s', '%s')\n",
    "    \"\"\" % (url, keyword)\n",
    "    c.execute(sql)\n",
    "    conn.commit()\n",
    "    i += 1\n",
    "    if i % 50 == 0:\n",
    "        print(i, len(data3))\n",
    "        \n",
    "        \n",
    "\n",
    "sql = \"delete from page_index;\"\n",
    "c.execute(sql)\n",
    "conn.commit()\n",
    "\n",
    "sql = \"select * from page_info;\"\n",
    "res = c.execute(sql)\n",
    "res = list(res)\n",
    "length = len(res)\n",
    "\n",
    "i = 0\n",
    "for line in res:\n",
    "    pid, words, url = line[0], line[1], line[2]\n",
    "    words = words.split(\" \")\n",
    "    for w in words:\n",
    "        sql = \"\"\"\n",
    "        insert into page_index (keyword, page_id) \n",
    "        values('%s', '%s')\n",
    "        \"\"\" % (w, pid)\n",
    "        c.execute(sql)\n",
    "        conn.commit()\n",
    "    i += 1\n",
    "    if i % 100 == 0:\n",
    "        print(i, length)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 45,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 64,
   "metadata": {},
   "outputs": [],
   "source": [
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 45,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>title</th>\n",
       "      <th>url</th>\n",
       "      <th>Momo</th>\n",
       "      <th>徐风</th>\n",
       "      <th>可靠消息</th>\n",
       "      <th>伴君</th>\n",
       "      <th>➇</th>\n",
       "      <th>大家闺秀</th>\n",
       "      <th>HZQ</th>\n",
       "      <th>魂淡</th>\n",
       "      <th>...</th>\n",
       "      <th>160426</th>\n",
       "      <th>浪人</th>\n",
       "      <th>miniso</th>\n",
       "      <th>懒懒</th>\n",
       "      <th>被迫</th>\n",
       "      <th>雷</th>\n",
       "      <th>一言难尽</th>\n",
       "      <th>看眼南</th>\n",
       "      <th>盖楼</th>\n",
       "      <th>charging</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>0 rows × 34676 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "Empty DataFrame\n",
       "Columns: [title, url, Momo, 徐风, 可靠消息, 伴君, ➇, 大家闺秀, HZQ, 魂淡, 款式, 130926, 旺季, 尸人, 蔡徐, 成晓诗, 小宅家, 敌, 黄桷, 希贴, 考据, 披着, 歌词, 备注, 629, 平灵文, 古巨基, 有钱, 片子, 楠神, 小妻, 素色, 纲, 电影频道, 事件, Dance, 期, MyDream, 投射, LL, 场稳, 口腔, 塔尖, 彩霞, 硕文, 20180130, 196, ≡, 昆明, 审判者, 摘星, 心想事成, Ev, 心相印, 推翻, 冬, 李荣浩年, 轻, 纯虐, 粘, 英语, 选品, 151118, 一博饭, 下辈子, PV, 초, 信心, 自私, 粉家, 龙, 迷香, 八鸡, 方言, 截修图, 53, 闹, 彩页, 刘宣廷首, 三周, 水吧, 场馆, BigBang, 偶, 無法, 快本, 啊啊啊, 自由, 牛轧糖, M2, 68, 黑星, CH2, 同是, 内容, 160228, 行觉, KRLS, 水楼, 加护, ...]\n",
       "Index: []\n",
       "\n",
       "[0 rows x 34676 columns]"
      ]
     },
     "execution_count": 45,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "titles = list(words)\n",
    "colums = [\"title\", \"url\"] + titles\n",
    "word_vector = pd.DataFrame(columns=colums)\n",
    "word_vector"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "data = pd.read_csv(\"./data/database.csv\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 86,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>title,</th>\n",
       "      <th>url</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>[公告]关于撤销 Allison1987 吧主管理权限的说明</td>\n",
       "      <td>http://tieba.baidu.com/p/6014691898</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2012-2018好声音冠军导师和选手</td>\n",
       "      <td>http://tieba.baidu.com/p/5910383348</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>潘长江敢于承认自己1米47，邓紫棋就非得说自己1米57的歌手</td>\n",
       "      <td>http://tieba.baidu.com/p/6032202300</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>我发表了一篇图片贴，大伙来看看吧~</td>\n",
       "      <td>http://tieba.baidu.com/p/6075461411</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>希望续了版权吧!</td>\n",
       "      <td>http://tieba.baidu.com/p/6104244192</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>怎么撩妹？学会这几招，任何人都能追到喜欢的女生。</td>\n",
       "      <td>http://tieba.baidu.com/p/6078796540</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>听到你的声音</td>\n",
       "      <td>http://tieba.baidu.com/p/6100600410</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>愚民和邓紫棋不是对等关系，邓紫棋从来没把愚民当回事儿！</td>\n",
       "      <td>http://tieba.baidu.com/p/6103625087</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>四位导师 李健 哈林 谢霆锋 王力宏确定了？</td>\n",
       "      <td>http://tieba.baidu.com/p/6101441222</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>周杰伦的《米兰的小铁匠》是什么曲风？</td>\n",
       "      <td>http://tieba.baidu.com/p/4085362266</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>给大家推荐一个不错的选择</td>\n",
       "      <td>http://tieba.baidu.com/p/6093453073</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>想做富婆吗</td>\n",
       "      <td>http://tieba.baidu.com/p/6082901374</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>你怎么舍得我难过 - 帕尔哈提</td>\n",
       "      <td>http://tieba.baidu.com/p/6103144136</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>该用户已经连续签到80天了，连续30天一举“橙”名</td>\n",
       "      <td>http://tieba.baidu.com/home/main/?un=%E6%B5%B7...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>华粉真是</td>\n",
       "      <td>http://tieba.baidu.com/p/6104215652</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>赵国周和外国网红们祝大家节日快乐！！~~</td>\n",
       "      <td>http://tieba.baidu.com/p/5676664299</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>男生撩妹的正确打开方式，你知道吗？</td>\n",
       "      <td>http://tieba.baidu.com/p/6103176992</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>人这一辈子有多少70万呢 狗亚害人</td>\n",
       "      <td>http://tieba.baidu.com/p/6072798596</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>狗亚你的报应什么时候来？</td>\n",
       "      <td>http://tieba.baidu.com/p/6066028716</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>小米有品有鱼邀请码</td>\n",
       "      <td>http://tieba.baidu.com/p/6104044921</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>我来华语内地女歌手唱功20强，牛人还真多</td>\n",
       "      <td>http://tieba.baidu.com/p/4807255765</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>贼喊捉贼哦 你真是够可以的哦gou亚</td>\n",
       "      <td>http://tieba.baidu.com/p/6063737898</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>浅谈女生在情感中的思想，帮你轻松追到喜欢的女生。</td>\n",
       "      <td>http://tieba.baidu.com/p/6088154590</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>你继续，我看你狗亚下次怎么表演</td>\n",
       "      <td>http://tieba.baidu.com/p/6058022278</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>蔡依林咖位不够大么？ 蔡依林是宇宙小天后 亚洲唱跳第一天后</td>\n",
       "      <td>http://tieba.baidu.com/p/6104159386</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>爱自己，爱生活，活的健康向上，远离狗亚非法网赌</td>\n",
       "      <td>http://tieba.baidu.com/p/6053200221</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>这套路还不深啊 狗亚</td>\n",
       "      <td>http://tieba.baidu.com/p/6050963102</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>这季好声音没看点了</td>\n",
       "      <td>http://tieba.baidu.com/p/6083346351</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>吧友们颤抖吧！华晨宇想当好声音导师！</td>\n",
       "      <td>http://tieba.baidu.com/p/6081681174</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>狗亚的狗带的可怕之处就是无所不用其极。</td>\n",
       "      <td>http://tieba.baidu.com/p/6048922077</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28489</th>\n",
       "      <td>【一路有妮】19年04月13日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6099195809</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28490</th>\n",
       "      <td>【一路有妮】【请问】妮姐接下来拍什么戏啊？谢谢</td>\n",
       "      <td>http://tieba.baidu.com/p/6098004471</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28491</th>\n",
       "      <td>【一路有妮】19年04月12日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6098142466</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28492</th>\n",
       "      <td>姐，晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6099254762</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28493</th>\n",
       "      <td>【一路有妮】好喜欢刚从俄罗斯回来的宝莉</td>\n",
       "      <td>http://tieba.baidu.com/p/3950827762</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28494</th>\n",
       "      <td>【一路有妮】19年04月10日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6096048824</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28495</th>\n",
       "      <td>活捉一只闫妮少女！</td>\n",
       "      <td>http://tieba.baidu.com/p/6098177283</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28496</th>\n",
       "      <td>晚安，爱你，姐❤</td>\n",
       "      <td>http://tieba.baidu.com/p/6098122207</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28497</th>\n",
       "      <td>【一路有妮】19年04月11日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6097095512</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28498</th>\n",
       "      <td>姐，晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6096047584</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28499</th>\n",
       "      <td>【一路有妮】6.02亿元！顾家家居斥资购买理财</td>\n",
       "      <td>http://tieba.baidu.com/p/6096057503</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28500</th>\n",
       "      <td>【一路有妮】19年04月09日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6094968730</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28501</th>\n",
       "      <td>晚安，爱你❤</td>\n",
       "      <td>http://tieba.baidu.com/p/6093860552</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28502</th>\n",
       "      <td>【一路有妮】大美妮晚安！</td>\n",
       "      <td>http://tieba.baidu.com/p/6094961660</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28503</th>\n",
       "      <td>亲爱的姐，晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6095045516</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28504</th>\n",
       "      <td>【一路有妮】19年04月08日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6093885244</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28505</th>\n",
       "      <td>晚安，姐</td>\n",
       "      <td>http://tieba.baidu.com/p/6092907541</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28506</th>\n",
       "      <td>【一路有妮】19年04月07日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6092882890</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28507</th>\n",
       "      <td>【一路有妮】上热搜啦！真的是越来越美！越来越小姑娘!这个姐有</td>\n",
       "      <td>http://tieba.baidu.com/p/6092945867</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28508</th>\n",
       "      <td>姐，晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6091802492</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28509</th>\n",
       "      <td>【一路有妮】19年04月06日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6091843774</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28510</th>\n",
       "      <td>【一路有妮】19年04月05版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6090809043</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28511</th>\n",
       "      <td>亲爱的姐，晚安</td>\n",
       "      <td>http://tieba.baidu.com/p/6088579884</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28512</th>\n",
       "      <td>我发表了一篇语音贴，大伙来看看吧~</td>\n",
       "      <td>http://tieba.baidu.com/p/5587697746</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28513</th>\n",
       "      <td>【一路有妮】2019.3.17～18活动小记～</td>\n",
       "      <td>http://tieba.baidu.com/p/6072808146</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28514</th>\n",
       "      <td>该用户已经连续签到1802天了，连续30天一举“橙”名</td>\n",
       "      <td>http://tieba.baidu.com/home/main/?un=zdn1121&amp;i...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28515</th>\n",
       "      <td>【一路有妮】19年04月04日版聊～～～</td>\n",
       "      <td>http://tieba.baidu.com/p/6089689938</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28516</th>\n",
       "      <td>【一路有妮】#闫妮#@闫大腕儿 妮儿，额来喽</td>\n",
       "      <td>http://tieba.baidu.com/p/6062606173</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28517</th>\n",
       "      <td>【一路有妮】#闫妮310生日快乐#  😘妮儿，生日快乐～🎂🎉</td>\n",
       "      <td>http://tieba.baidu.com/p/6061816576</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28518</th>\n",
       "      <td>【一路有妮】期待少年派</td>\n",
       "      <td>http://tieba.baidu.com/p/6083290318</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>28519 rows × 2 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                               title,  \\\n",
       "0      [公告]关于撤销 Allison1987 吧主管理权限的说明   \n",
       "1                 2012-2018好声音冠军导师和选手   \n",
       "2      潘长江敢于承认自己1米47，邓紫棋就非得说自己1米57的歌手   \n",
       "3                   我发表了一篇图片贴，大伙来看看吧~   \n",
       "4                            希望续了版权吧!   \n",
       "5            怎么撩妹？学会这几招，任何人都能追到喜欢的女生。   \n",
       "6                              听到你的声音   \n",
       "7         愚民和邓紫棋不是对等关系，邓紫棋从来没把愚民当回事儿！   \n",
       "8              四位导师 李健 哈林 谢霆锋 王力宏确定了？   \n",
       "9                  周杰伦的《米兰的小铁匠》是什么曲风？   \n",
       "10                       给大家推荐一个不错的选择   \n",
       "11                              想做富婆吗   \n",
       "12                    你怎么舍得我难过 - 帕尔哈提   \n",
       "13          该用户已经连续签到80天了，连续30天一举“橙”名   \n",
       "14                               华粉真是   \n",
       "15               赵国周和外国网红们祝大家节日快乐！！~~   \n",
       "16                  男生撩妹的正确打开方式，你知道吗？   \n",
       "17                  人这一辈子有多少70万呢 狗亚害人   \n",
       "18                       狗亚你的报应什么时候来？   \n",
       "19                          小米有品有鱼邀请码   \n",
       "20               我来华语内地女歌手唱功20强，牛人还真多   \n",
       "21                 贼喊捉贼哦 你真是够可以的哦gou亚   \n",
       "22           浅谈女生在情感中的思想，帮你轻松追到喜欢的女生。   \n",
       "23                    你继续，我看你狗亚下次怎么表演   \n",
       "24      蔡依林咖位不够大么？ 蔡依林是宇宙小天后 亚洲唱跳第一天后   \n",
       "25            爱自己，爱生活，活的健康向上，远离狗亚非法网赌   \n",
       "26                         这套路还不深啊 狗亚   \n",
       "27                          这季好声音没看点了   \n",
       "28                 吧友们颤抖吧！华晨宇想当好声音导师！   \n",
       "29                狗亚的狗带的可怕之处就是无所不用其极。   \n",
       "...                               ...   \n",
       "28489            【一路有妮】19年04月13日版聊～～～   \n",
       "28490         【一路有妮】【请问】妮姐接下来拍什么戏啊？谢谢   \n",
       "28491            【一路有妮】19年04月12日版聊～～～   \n",
       "28492                            姐，晚安   \n",
       "28493             【一路有妮】好喜欢刚从俄罗斯回来的宝莉   \n",
       "28494            【一路有妮】19年04月10日版聊～～～   \n",
       "28495                       活捉一只闫妮少女！   \n",
       "28496                        晚安，爱你，姐❤   \n",
       "28497            【一路有妮】19年04月11日版聊～～～   \n",
       "28498                            姐，晚安   \n",
       "28499         【一路有妮】6.02亿元！顾家家居斥资购买理财   \n",
       "28500            【一路有妮】19年04月09日版聊～～～   \n",
       "28501                          晚安，爱你❤   \n",
       "28502                    【一路有妮】大美妮晚安！   \n",
       "28503                         亲爱的姐，晚安   \n",
       "28504            【一路有妮】19年04月08日版聊～～～   \n",
       "28505                            晚安，姐   \n",
       "28506            【一路有妮】19年04月07日版聊～～～   \n",
       "28507  【一路有妮】上热搜啦！真的是越来越美！越来越小姑娘!这个姐有   \n",
       "28508                            姐，晚安   \n",
       "28509            【一路有妮】19年04月06日版聊～～～   \n",
       "28510             【一路有妮】19年04月05版聊～～～   \n",
       "28511                         亲爱的姐，晚安   \n",
       "28512               我发表了一篇语音贴，大伙来看看吧~   \n",
       "28513         【一路有妮】2019.3.17～18活动小记～   \n",
       "28514     该用户已经连续签到1802天了，连续30天一举“橙”名   \n",
       "28515            【一路有妮】19年04月04日版聊～～～   \n",
       "28516          【一路有妮】#闫妮#@闫大腕儿 妮儿，额来喽   \n",
       "28517  【一路有妮】#闫妮310生日快乐#  😘妮儿，生日快乐～🎂🎉   \n",
       "28518                     【一路有妮】期待少年派   \n",
       "\n",
       "                                                     url  \n",
       "0                    http://tieba.baidu.com/p/6014691898  \n",
       "1                    http://tieba.baidu.com/p/5910383348  \n",
       "2                    http://tieba.baidu.com/p/6032202300  \n",
       "3                    http://tieba.baidu.com/p/6075461411  \n",
       "4                    http://tieba.baidu.com/p/6104244192  \n",
       "5                    http://tieba.baidu.com/p/6078796540  \n",
       "6                    http://tieba.baidu.com/p/6100600410  \n",
       "7                    http://tieba.baidu.com/p/6103625087  \n",
       "8                    http://tieba.baidu.com/p/6101441222  \n",
       "9                    http://tieba.baidu.com/p/4085362266  \n",
       "10                   http://tieba.baidu.com/p/6093453073  \n",
       "11                   http://tieba.baidu.com/p/6082901374  \n",
       "12                   http://tieba.baidu.com/p/6103144136  \n",
       "13     http://tieba.baidu.com/home/main/?un=%E6%B5%B7...  \n",
       "14                   http://tieba.baidu.com/p/6104215652  \n",
       "15                   http://tieba.baidu.com/p/5676664299  \n",
       "16                   http://tieba.baidu.com/p/6103176992  \n",
       "17                   http://tieba.baidu.com/p/6072798596  \n",
       "18                   http://tieba.baidu.com/p/6066028716  \n",
       "19                   http://tieba.baidu.com/p/6104044921  \n",
       "20                   http://tieba.baidu.com/p/4807255765  \n",
       "21                   http://tieba.baidu.com/p/6063737898  \n",
       "22                   http://tieba.baidu.com/p/6088154590  \n",
       "23                   http://tieba.baidu.com/p/6058022278  \n",
       "24                   http://tieba.baidu.com/p/6104159386  \n",
       "25                   http://tieba.baidu.com/p/6053200221  \n",
       "26                   http://tieba.baidu.com/p/6050963102  \n",
       "27                   http://tieba.baidu.com/p/6083346351  \n",
       "28                   http://tieba.baidu.com/p/6081681174  \n",
       "29                   http://tieba.baidu.com/p/6048922077  \n",
       "...                                                  ...  \n",
       "28489                http://tieba.baidu.com/p/6099195809  \n",
       "28490                http://tieba.baidu.com/p/6098004471  \n",
       "28491                http://tieba.baidu.com/p/6098142466  \n",
       "28492                http://tieba.baidu.com/p/6099254762  \n",
       "28493                http://tieba.baidu.com/p/3950827762  \n",
       "28494                http://tieba.baidu.com/p/6096048824  \n",
       "28495                http://tieba.baidu.com/p/6098177283  \n",
       "28496                http://tieba.baidu.com/p/6098122207  \n",
       "28497                http://tieba.baidu.com/p/6097095512  \n",
       "28498                http://tieba.baidu.com/p/6096047584  \n",
       "28499                http://tieba.baidu.com/p/6096057503  \n",
       "28500                http://tieba.baidu.com/p/6094968730  \n",
       "28501                http://tieba.baidu.com/p/6093860552  \n",
       "28502                http://tieba.baidu.com/p/6094961660  \n",
       "28503                http://tieba.baidu.com/p/6095045516  \n",
       "28504                http://tieba.baidu.com/p/6093885244  \n",
       "28505                http://tieba.baidu.com/p/6092907541  \n",
       "28506                http://tieba.baidu.com/p/6092882890  \n",
       "28507                http://tieba.baidu.com/p/6092945867  \n",
       "28508                http://tieba.baidu.com/p/6091802492  \n",
       "28509                http://tieba.baidu.com/p/6091843774  \n",
       "28510                http://tieba.baidu.com/p/6090809043  \n",
       "28511                http://tieba.baidu.com/p/6088579884  \n",
       "28512                http://tieba.baidu.com/p/5587697746  \n",
       "28513                http://tieba.baidu.com/p/6072808146  \n",
       "28514  http://tieba.baidu.com/home/main/?un=zdn1121&i...  \n",
       "28515                http://tieba.baidu.com/p/6089689938  \n",
       "28516                http://tieba.baidu.com/p/6062606173  \n",
       "28517                http://tieba.baidu.com/p/6061816576  \n",
       "28518                http://tieba.baidu.com/p/6083290318  \n",
       "\n",
       "[28519 rows x 2 columns]"
      ]
     },
     "execution_count": 86,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 87,
   "metadata": {},
   "outputs": [],
   "source": [
    "sql = \"alter table page_info add title text;\"\n",
    "conn = sqlite3.connect(\"./data/database.db\")\n",
    "c = conn.cursor()\n",
    "c.execute(sql)\n",
    "conn.commit()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "50 28519\n",
      "100 28519\n",
      "150 28519\n",
      "200 28519\n",
      "250 28519\n",
      "300 28519\n",
      "350 28519\n",
      "400 28519\n",
      "450 28519\n",
      "500 28519\n",
      "550 28519\n",
      "600 28519\n",
      "650 28519\n",
      "700 28519\n",
      "750 28519\n",
      "800 28519\n",
      "850 28519\n",
      "900 28519\n",
      "950 28519\n",
      "1000 28519\n",
      "1050 28519\n",
      "1100 28519\n",
      "1150 28519\n",
      "1200 28519\n",
      "1250 28519\n",
      "1300 28519\n",
      "1350 28519\n",
      "1400 28519\n",
      "1450 28519\n",
      "1500 28519\n",
      "1550 28519\n",
      "1600 28519\n",
      "1650 28519\n",
      "1700 28519\n",
      "1750 28519\n",
      "1800 28519\n",
      "1850 28519\n",
      "1900 28519\n",
      "1950 28519\n",
      "2000 28519\n",
      "2050 28519\n",
      "2100 28519\n",
      "2150 28519\n",
      "2200 28519\n",
      "2250 28519\n",
      "2300 28519\n",
      "2350 28519\n",
      "2400 28519\n",
      "2450 28519\n",
      "2500 28519\n",
      "2550 28519\n",
      "2600 28519\n",
      "2650 28519\n",
      "2700 28519\n",
      "2750 28519\n",
      "2800 28519\n",
      "2850 28519\n",
      "2900 28519\n",
      "2950 28519\n",
      "3000 28519\n",
      "3050 28519\n",
      "3100 28519\n",
      "3150 28519\n",
      "3200 28519\n",
      "3250 28519\n",
      "3300 28519\n",
      "3350 28519\n",
      "3400 28519\n",
      "3450 28519\n",
      "3500 28519\n",
      "3550 28519\n",
      "3600 28519\n",
      "3650 28519\n",
      "3700 28519\n",
      "3750 28519\n",
      "3800 28519\n",
      "3850 28519\n",
      "3900 28519\n",
      "3950 28519\n",
      "4000 28519\n",
      "4050 28519\n",
      "4100 28519\n",
      "4150 28519\n",
      "4200 28519\n",
      "4250 28519\n",
      "4300 28519\n",
      "4350 28519\n",
      "4400 28519\n",
      "4450 28519\n",
      "4500 28519\n",
      "4550 28519\n",
      "4600 28519\n",
      "4650 28519\n",
      "4700 28519\n",
      "4750 28519\n",
      "4800 28519\n",
      "4850 28519\n",
      "4900 28519\n",
      "4950 28519\n",
      "5000 28519\n",
      "5050 28519\n",
      "5100 28519\n",
      "5150 28519\n",
      "5200 28519\n",
      "5250 28519\n",
      "5300 28519\n",
      "5350 28519\n",
      "5400 28519\n",
      "5450 28519\n",
      "5500 28519\n",
      "5550 28519\n",
      "5600 28519\n",
      "5650 28519\n",
      "5700 28519\n",
      "5750 28519\n",
      "5800 28519\n",
      "5850 28519\n",
      "5900 28519\n",
      "5950 28519\n",
      "6000 28519\n",
      "6050 28519\n",
      "6100 28519\n",
      "6150 28519\n",
      "6200 28519\n",
      "6250 28519\n",
      "6300 28519\n",
      "6350 28519\n",
      "6400 28519\n",
      "6450 28519\n",
      "6500 28519\n",
      "6550 28519\n",
      "6600 28519\n",
      "6650 28519\n",
      "6700 28519\n",
      "6750 28519\n",
      "6800 28519\n",
      "6850 28519\n",
      "6900 28519\n",
      "6950 28519\n",
      "7000 28519\n",
      "7050 28519\n",
      "7100 28519\n",
      "7150 28519\n",
      "7200 28519\n",
      "7250 28519\n",
      "7300 28519\n",
      "7350 28519\n",
      "7400 28519\n",
      "7450 28519\n",
      "7500 28519\n",
      "7550 28519\n",
      "7600 28519\n",
      "7650 28519\n",
      "7700 28519\n",
      "7750 28519\n",
      "7800 28519\n",
      "7850 28519\n",
      "7900 28519\n",
      "7950 28519\n",
      "8000 28519\n",
      "8050 28519\n",
      "8100 28519\n",
      "8150 28519\n",
      "8200 28519\n",
      "8250 28519\n",
      "8300 28519\n",
      "8350 28519\n",
      "8400 28519\n",
      "8450 28519\n",
      "8500 28519\n",
      "8550 28519\n",
      "8600 28519\n",
      "8650 28519\n",
      "8700 28519\n",
      "8750 28519\n",
      "8800 28519\n",
      "8850 28519\n",
      "8900 28519\n",
      "8950 28519\n",
      "9000 28519\n",
      "9050 28519\n",
      "9100 28519\n",
      "9150 28519\n",
      "9200 28519\n",
      "9250 28519\n",
      "9300 28519\n",
      "9350 28519\n",
      "9400 28519\n",
      "9450 28519\n",
      "9500 28519\n",
      "9550 28519\n",
      "9600 28519\n",
      "9650 28519\n",
      "9700 28519\n",
      "9750 28519\n",
      "9800 28519\n",
      "9850 28519\n",
      "9900 28519\n",
      "9950 28519\n",
      "10000 28519\n",
      "10050 28519\n",
      "10100 28519\n",
      "10150 28519\n",
      "10200 28519\n",
      "10250 28519\n",
      "10300 28519\n",
      "10350 28519\n",
      "10400 28519\n",
      "10450 28519\n",
      "10500 28519\n",
      "10550 28519\n",
      "10600 28519\n",
      "10650 28519\n",
      "10700 28519\n",
      "10750 28519\n",
      "10800 28519\n",
      "10850 28519\n",
      "10900 28519\n",
      "10950 28519\n",
      "11000 28519\n",
      "11050 28519\n",
      "11100 28519\n",
      "11150 28519\n",
      "11200 28519\n",
      "11250 28519\n",
      "11300 28519\n",
      "11350 28519\n",
      "11400 28519\n",
      "11450 28519\n",
      "11500 28519\n",
      "11550 28519\n",
      "11600 28519\n",
      "11650 28519\n",
      "11700 28519\n",
      "11750 28519\n",
      "11800 28519\n",
      "11850 28519\n",
      "11900 28519\n",
      "11950 28519\n",
      "12000 28519\n",
      "12050 28519\n",
      "12100 28519\n",
      "12150 28519\n",
      "12200 28519\n",
      "12250 28519\n",
      "12300 28519\n",
      "12350 28519\n",
      "12400 28519\n",
      "12450 28519\n",
      "12500 28519\n",
      "12550 28519\n",
      "12600 28519\n",
      "12650 28519\n",
      "12700 28519\n",
      "12750 28519\n",
      "12800 28519\n",
      "12850 28519\n",
      "12900 28519\n",
      "12950 28519\n",
      "13000 28519\n",
      "13050 28519\n",
      "13100 28519\n",
      "13150 28519\n",
      "13200 28519\n",
      "13250 28519\n",
      "13300 28519\n",
      "13350 28519\n",
      "13400 28519\n",
      "13450 28519\n",
      "13500 28519\n",
      "13550 28519\n",
      "13600 28519\n",
      "13650 28519\n",
      "13700 28519\n",
      "13750 28519\n",
      "13800 28519\n",
      "13850 28519\n",
      "13900 28519\n",
      "13950 28519\n",
      "14000 28519\n",
      "14050 28519\n",
      "14100 28519\n",
      "14150 28519\n",
      "14200 28519\n",
      "14250 28519\n",
      "14300 28519\n",
      "14350 28519\n",
      "14400 28519\n",
      "14450 28519\n",
      "14500 28519\n",
      "14550 28519\n",
      "14600 28519\n",
      "14650 28519\n",
      "14700 28519\n",
      "14750 28519\n",
      "14800 28519\n",
      "14850 28519\n",
      "14900 28519\n",
      "14950 28519\n",
      "15000 28519\n",
      "15050 28519\n",
      "15100 28519\n",
      "15150 28519\n",
      "15200 28519\n",
      "15250 28519\n",
      "15300 28519\n",
      "15350 28519\n",
      "15400 28519\n",
      "15450 28519\n",
      "15500 28519\n",
      "15550 28519\n",
      "15600 28519\n",
      "15650 28519\n",
      "15700 28519\n",
      "15750 28519\n",
      "15800 28519\n",
      "15850 28519\n",
      "15900 28519\n",
      "15950 28519\n",
      "16000 28519\n",
      "16050 28519\n",
      "16100 28519\n",
      "16150 28519\n",
      "16200 28519\n",
      "16250 28519\n",
      "16300 28519\n",
      "16350 28519\n",
      "16400 28519\n",
      "16450 28519\n",
      "16500 28519\n",
      "16550 28519\n",
      "16600 28519\n",
      "16650 28519\n",
      "16700 28519\n",
      "16750 28519\n",
      "16800 28519\n",
      "16850 28519\n",
      "16900 28519\n",
      "16950 28519\n",
      "17000 28519\n",
      "17050 28519\n",
      "17100 28519\n",
      "17150 28519\n",
      "17200 28519\n",
      "17250 28519\n",
      "17300 28519\n",
      "17350 28519\n",
      "17400 28519\n",
      "17450 28519\n",
      "17500 28519\n",
      "17550 28519\n",
      "17600 28519\n",
      "17650 28519\n",
      "17700 28519\n",
      "17750 28519\n",
      "17800 28519\n",
      "17850 28519\n",
      "17900 28519\n",
      "17950 28519\n",
      "18000 28519\n",
      "18050 28519\n",
      "18100 28519\n",
      "18150 28519\n",
      "18200 28519\n",
      "18250 28519\n",
      "18300 28519\n",
      "18350 28519\n",
      "18400 28519\n",
      "18450 28519\n",
      "18500 28519\n",
      "18550 28519\n",
      "18600 28519\n",
      "18650 28519\n",
      "18700 28519\n",
      "18750 28519\n",
      "18800 28519\n",
      "18850 28519\n",
      "18900 28519\n",
      "18950 28519\n",
      "19000 28519\n",
      "19050 28519\n",
      "19100 28519\n",
      "19150 28519\n",
      "19200 28519\n",
      "19250 28519\n",
      "19300 28519\n",
      "19350 28519\n",
      "19400 28519\n",
      "19450 28519\n",
      "19500 28519\n",
      "19550 28519\n",
      "19600 28519\n",
      "19650 28519\n",
      "19700 28519\n",
      "19750 28519\n",
      "19800 28519\n",
      "19850 28519\n",
      "19900 28519\n",
      "19950 28519\n",
      "20000 28519\n",
      "20050 28519\n",
      "20100 28519\n",
      "20150 28519\n",
      "20200 28519\n",
      "20250 28519\n",
      "20300 28519\n",
      "20350 28519\n",
      "20400 28519\n",
      "20450 28519\n",
      "20500 28519\n",
      "20550 28519\n",
      "20600 28519\n",
      "20650 28519\n",
      "20700 28519\n",
      "20750 28519\n",
      "20800 28519\n",
      "20850 28519\n",
      "20900 28519\n",
      "20950 28519\n",
      "21000 28519\n",
      "21050 28519\n",
      "21100 28519\n",
      "21150 28519\n",
      "21200 28519\n",
      "21250 28519\n",
      "21300 28519\n",
      "21350 28519\n",
      "21400 28519\n",
      "21450 28519\n",
      "21500 28519\n",
      "21550 28519\n",
      "21600 28519\n",
      "21650 28519\n",
      "21700 28519\n",
      "21750 28519\n",
      "21800 28519\n",
      "21850 28519\n",
      "21900 28519\n",
      "21950 28519\n",
      "22000 28519\n",
      "22050 28519\n",
      "22100 28519\n",
      "22150 28519\n",
      "22200 28519\n",
      "22250 28519\n",
      "22300 28519\n",
      "22350 28519\n",
      "22400 28519\n",
      "22450 28519\n",
      "22500 28519\n",
      "22550 28519\n",
      "22600 28519\n",
      "22650 28519\n",
      "22700 28519\n",
      "22750 28519\n",
      "22800 28519\n",
      "22850 28519\n",
      "22900 28519\n",
      "22950 28519\n",
      "23000 28519\n",
      "23050 28519\n",
      "23100 28519\n",
      "23150 28519\n",
      "23200 28519\n",
      "23250 28519\n",
      "23300 28519\n",
      "23350 28519\n",
      "23400 28519\n",
      "23450 28519\n",
      "23500 28519\n",
      "23550 28519\n",
      "23600 28519\n",
      "23650 28519\n",
      "23700 28519\n",
      "23750 28519\n",
      "23800 28519\n",
      "23850 28519\n",
      "23900 28519\n",
      "23950 28519\n",
      "24000 28519\n",
      "24050 28519\n",
      "24100 28519\n",
      "24150 28519\n",
      "24200 28519\n",
      "24250 28519\n",
      "24300 28519\n",
      "24350 28519\n",
      "24400 28519\n",
      "24450 28519\n",
      "24500 28519\n",
      "24550 28519\n",
      "24600 28519\n",
      "24650 28519\n",
      "24700 28519\n",
      "24750 28519\n",
      "24800 28519\n",
      "24850 28519\n",
      "24900 28519\n",
      "24950 28519\n",
      "25000 28519\n",
      "25050 28519\n",
      "25100 28519\n",
      "25150 28519\n",
      "25200 28519\n",
      "25250 28519\n",
      "25300 28519\n",
      "25350 28519\n",
      "25400 28519\n",
      "25450 28519\n",
      "25500 28519\n",
      "25550 28519\n",
      "25600 28519\n",
      "25650 28519\n",
      "25700 28519\n",
      "25750 28519\n",
      "25800 28519\n",
      "25850 28519\n",
      "25900 28519\n",
      "25950 28519\n",
      "26000 28519\n",
      "26050 28519\n",
      "26100 28519\n",
      "26150 28519\n",
      "26200 28519\n",
      "26250 28519\n",
      "26300 28519\n",
      "26350 28519\n",
      "26400 28519\n",
      "26450 28519\n",
      "26500 28519\n",
      "26550 28519\n",
      "26600 28519\n",
      "26650 28519\n",
      "26700 28519\n",
      "26750 28519\n",
      "26800 28519\n",
      "26850 28519\n",
      "26900 28519\n",
      "26950 28519\n",
      "27000 28519\n",
      "27050 28519\n",
      "27100 28519\n",
      "27150 28519\n",
      "27200 28519\n",
      "27250 28519\n",
      "27300 28519\n",
      "27350 28519\n",
      "27400 28519\n",
      "27450 28519\n",
      "27500 28519\n",
      "27550 28519\n",
      "27600 28519\n",
      "27650 28519\n",
      "27700 28519\n",
      "27750 28519\n",
      "27800 28519\n",
      "27850 28519\n",
      "27900 28519\n",
      "27950 28519\n",
      "28000 28519\n",
      "28050 28519\n",
      "28100 28519\n",
      "28150 28519\n",
      "28200 28519\n",
      "28250 28519\n",
      "28300 28519\n",
      "28350 28519\n",
      "28400 28519\n"
     ]
    }
   ],
   "source": [
    "conn = sqlite3.connect(\"./data/database.db\")\n",
    "c = conn.cursor()\n",
    "length = len(data)\n",
    "i = 0\n",
    "for line in data.itertuples():\n",
    "    pid = line[0]+1\n",
    "    title = line[1]\n",
    "    sql = \"UPDATE page_info SET title = '%s' WHERE id = %s \"%(title,pid)\n",
    "    try:\n",
    "        c.execute(sql)\n",
    "        conn.commit()\n",
    "    except:\n",
    "        continue\n",
    "    i += 1\n",
    "    if i % 50 == 0:\n",
    "        print(i, length)\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
